[2023年6月7日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack情報まとめモダンデータスタック(MDS)

さがら

2023.06.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Airbyte社によるState of Data 2023

Airbyte社がデータエンジニアリングに関わる886人にアンケートを行い、その内容をまとめたState of Data 2023が出ていました。

回答者のデータチームの人数、各分野でどの製品を使っているか、どこから情報を得ているか、など多くの情報が詰まっており面白いです！

lakeFS社によるThe State of Data Engineering 2023

lakeFS社によって昨今のデータエンジニアリングについてまとめられたレポート「The State of Data Engineering 2023」が出ていました。

Modern Data Stackに該当するようなSaaSだけでなくOSSについても広く言及されているので、各分野のトレンドを知るにはちょうど良いレポートだと思います。

Airbyte社によるData Modelingに関するブログ Part3

データのExtract～Loadを担ってくれるAirbyteが自社ブログで、データモデリングに関する3部作の3本目の記事を出していました。3本目では、どういったレイヤー分けを行ってデータを管理するのか、バッチとストリーミング・レイクハウスとデータウェアハウスなどのデータ基盤を構成する要素についての説明、といったモデリングに限らないデータ基盤全体に関する内容がまとめられています。

How To Implement Data Observability Like A Boss In 6 Steps

Monte Carlo社のMichael氏より、Data Observabilityを導入する際の６ステップについてまとめられた記事が出ていました。

データのユースケースの棚卸しと必要なパフォーマンスのベースラインの定義から始まり、データの品質管理とインシデント対応に関わるコストを出し…といったように、Data Observabilityのビジネスにおける必要性を出すところからステップを考えられているので、データ品質に関わる有償プロダクトを導入する際の参考になると思います。

How Data Observability Helps Ensure Data Quality for Retail

Acceldata社により、Data Observabilityが小売業のデータ品質の確保にどのように役立つかをまとめた記事が出ていました。

実際の小売業におけるデータ活用のユースケースから始まり、具体的にどんなシナリオでデータの信頼性を確認するかの実例も書かれており、参考になる方も多いと思います。

How to Generate Personalized Emails from your Snowflake CDP with ChatGPT, Snowpark, & Hightouch

phData社により、Snowflakeを中心とし、ChatGPT、Snowpark、Streanlit、HightouchでパーソナライズドされたEメールをどうやって生成するか、の概要とアーキテクチャをまとめた記事が出ていました。

今後はこういったChatGPTなどAIを組み込んだアーキテクチャが多くなると思いますので、一つの参考になると思います。

Data Extract/Load

Fivetran

Fivetranの最新のコネクタ情報がまとまったブログ

Fivetran社により、Fivetranの最新ののコネクタ情報がまとまったブログが出ていました。

Fivetranでロードしたデータ向けのモデルを集めたdbt packageも定期的にリリースされています！

Airbyte

データソースのスキーマ変更時の自動変換機能がリリース

詳細は私も掴めきれていないのですが、Airbyteでデータソースのスキーマ変更時に自動で検知し、ロード対応を行ってくれる機能がリリースされました。

同期対象のカラムを選択する機能がリリース

Airbyteで、UI上で同期するカラムをクリックすることで同期する・しないを切り替えることができる機能がリリースされました。

Data Warehouse/Data Lakehouse

全般

Snowflake

SnowflakeがNeevaを買収

SnowflakeがGenerative AIを用いた検索に強みを持つNeevaを買収したことを発表しました。

今後SnowflakeにどのようにNeevaの機能が組み込まれ、データクラウドでの検索周りがどう発展していくのか楽しみです！

ストアドプロシージャとUDFsのログメッセージとトレースデータを記録できるEvent Tableがパブリックプレビュー

先日のアップデートで、ストアドプロシージャとUDFsのログメッセージとトレースデータを記録できるEvent Tableがパブリックプレビューとなりました。

早速、@allllllllezさんが試されていてわかりやすい記事を書いていましたので、ぜひこちらの記事もご覧ください！

BigQuery

パーティショニングとクラスタリングに関するレコメンダーがPre-GA

過去30日間の対象プロジェクトのワークロードを分析し、パーティショニングとクラスタリングすべきカラムを提案してくれる機能がPre-GAとなりました。

パーティショニングやクラスタリングはBigQueryのコストやパフォーマンスチューニングで欠かせないので、過去のクエリ状況を分析して提案してもらえるのは非常にありがたいと思います！

DuckDB

DuckDBに関連する最新情報のまとめ記事

「THIS MONTH IN THE DUCKDB ECOSYSTEM: MAY 2023」というタイトルで、DuckDBに関連する最新情報のまとめ記事が出ていました。

Data Transform

dbt

dbtで定義したクエリをOpenAPI仕様のREST APIとして参照できるようにする「Jinjat」

dbtで定義したクエリについて、OpenAPI仕様のREST APIとして定義できるようにする「Jinjat」がリリースされていました。

昨今Streamlitなど、データウェアハウス上のデータを参照して構築するデータアプリケーションの概念が少しずつ広まりつつありますが、データアプリケーションには「事前のデータ変換・抽出するデータの定義」や「アプリケーションからデータを参照するAPIの定義」が必要になってくることが多いです。

この「データ変換」にdbt、「APIの定義」にOpenAPI、という組み合わせに着目して作られたOSSがJinjatです。

私も実際に触れて無く、ドキュメントの整備状況を見てもまだこれからなOSSという印象ですが、JinjatによりStreamlitのアプリをdbt projectから生成することもできそうなので、今後注目したいOSSです！

公式Doc

Jinjatのドキュメント

Jinjatを用いたChatGPT Pluginsの開発サンプル

dbt Cloud Metadata APIを改良したDiscovery APIがパブリックプレビュー

dbt Cloud上のジョブや各種モデル定義に関するメタデータを取得できるAPIとして元々dbt Cloud Metadata APIが提供されていましたが、今後は改良して「Discovery API」として提供していくと発表がありました。現在Discovery APIはパブリックプレビューです。

このアップデートについては、Monte Carlo、Hex、Atlan、といったdbtの主要なテクノロジーパートナーと連携しながら進めたようです。

将来的にはエラーが良く発生しているジョブの検知、処理に時間がかかっているパイプラインの検知、など幅広い用途に対応できるようにしていくとのことです。

dbt CloudのIDEに関する５月のアップデート＆修正内容まとめ

dbt CloudのIDEについて、５月のアップデートと修正内容をまとめたページが公開されていました。

特に注目したいのは、「Lint via SQL Fluff is now available in beta (GA over the next 2-3 weeks)」ということで、IDE上でLinterとしてSQLFluffを使うことが出来るようになるみたいです！これで、チーム内でdbt Cloudを用いてデータ変換処理を開発する際、定めた規約に沿って開発がしやすくなりますね。

Business Intelligence

Tableau

Tableau 2023.2がまもなくリリース

Tableauは四半期に一度アップデートを行っているサービスですが、もうすぐ今年２回目のアップデートとして2023.2がリリース予定となります。

個人的には、GA4コネクタやS3コネクタが気になっています！

Notebook

Hex

自然言語で自動でSQLやPythonコードを作成してくれる「Magic AI-assist tool」がPublic Betaとして提供開始

HexはNotebook上でSQLやPythonなどを駆使して分析したりレポートを構築できるサービスですが、2023年5月4日に自然言語で自動でSQLやPythonコードを作成してくれる「Magic AI-assist tool」をPublic Betaとして提供開始しました。

裏側ではGPT-4が採用されているようです。

Data Catalog

Atlan

Monte Carloとの連携機能を発表

Data Observabilityのプラットフォームを提供するMonte Carloと、Atlanが連携する機能を発表しました。

この連携により、Atlan上でMonte Carloにより提供されるデータ品質に関する情報を閲覧することができるようです。例えば、Monte Carloによって検知されたデータインシデントをAtlanで見れるようになることで、Atlanを閲覧する一般ユーザー側でもデータの信頼性が担保されているかどうかを確認可能となります。

CastorDoc（旧Castor）

CastorがCastorDocに名称変更

CastorでCastorDocに名称変更し、ロゴも変更していました。

以下の記事に今後のビジョンなどがまとめられていますが、よりWikipediaのような皆で管理するドキュメント化の方向性に注力するようで、後述する「Knowledge Map」でドキュメントから指標までまとめて表示したりなど、他のデータカタログ製品にはない方向性なのが印象深いです！

Knowledge Mapの発表

各テーブルに関するドキュメントの内容から関連するKPIまでを一つの図上にマッピングしてみることが出来る「Knowledge Map」が発表されました。

データカタログ上でテキストベースで検索させるのではなく、一つの図から視覚的に欲しい情報を検索させつつ関連情報も並べて見せることができるので、よりビジネスユーザーの方には馴染みやすいのでは、と感じました！

下記のリンク先を見ると、Gifと併せてKnoledge Mapのことがわかるのでぜひご覧ください。

Data Activation (Reverse ETL)

Hightouch

Customer Studioで使用するデータをGUIベースで定義できる「Schemas」の発表

Hightouch上で、GUIベースで各テーブルやデータモデルを結合しCustomer Studio上で使用するデータを定義することができる「Schemas」が発表されました。

この機能により、Customer Studioで配信対象を絞り込んだり分析したりする、よりビジネス寄りの職種の方でもデータを定義しやすく出来るようになったと思います。一方で、下手にJOINがユーザー側で出来てしまうと意図せぬ形でデータが使われてしまうリスクもあると感じたので、どうやってガバナンスを担保していくかが個人的には気になりました。

Census

Censusで定義したワークフローをコードでGit管理できる「GitLink」の発表

CensusはReverseETLのツールで、基本的にはマーケターなどビジネス寄りの職種の方でも使えるようにGUIベースで操作を行うのが基本です。ただ、バージョン管理に少し悩むところがありました。

そういった課題を踏まえてか、Censusで定義したワークフローをコードでGit管理できる「GitLink」が発表されました。プルリクエスト発行時にCIパイプラインも実行してくれるようなので、より安定したCensusの運用が出来そうですね。

Data Quality・Data Observability

Great Expectations

2023年5月の最新情報まとめ

Great Expectationsについて、2023年5月の最新情報をまとめた記事が出ていました。

Data Orchestration

Dagster

DagsterがSeries Bで3300万ドルの資金調達を実施

Dagsterを開発しているElementl社が、Series Bで3300万ドルを資金調達したことを発表しました。

以下の記事では、Elementl社のFounderであるNick氏が、データエンジニアリングにおいて多種多様なツールやデータを管理すること複雑さを課題として挙げ、Dagsterがこの課題に対してどういった解決が出来るか、どういったビジョンを持った製品か、といったことがまとめられています。